查看原文
其他

Facebook是否将敏感数据用于广告目的? | 网络科学论文速递18篇

ComplexLY 集智俱乐部 2021-02-09



核心速递



  • Facebook是否将敏感数据用于广告目的?全球分析和GDPR影响;

  • 复杂网络系统流模型的影响力与介数;

  • 探索公共合作的最佳制度激励机制;

  • 深度绘图:图绘制的深度学习方法;

  • Python包索引(PyPI)的实证分析;

  • 随机聚类网络中渗流簇的结构;

  • 二元预测与实际收益的统计差异;

  • 社交数据流的实时事件检测;

  • 石头剪子布模型的Lotka-Volterra和May-Leonard实现中最弱物种的占优;

  • 权力网络:分析世界领导者在社交媒体的互动;

  • 时间网络的社区发现挑战;

  • 融入与分离:一种非线性版本的共演化投票模型;

  • 使用规则等价在基于信任的推荐系统中利用弱关系;

  • 具有不断发展的系统风险防护的网络和主体动态;

  • 节点警报 - 检测快速演变图中的变化;

  • 采用Twitter评估美国人乳头瘤病毒疫苗接种健康行为的决定因素;

  • 通过强化学习学习社会网络发现的策略;

  • 复杂环境中的群集——集体信息处理中的注意力折衷;

 




Facebook是否

将敏感数据用于广告

目的?全球分析和GDPR影响


原文标题: 
Does Facebook Use Sensitive Data for Advertising Purposes? Worldwide Analysis and GDPR Impact
地址:
http://arxiv.org/abs/1907.10672
作者:
Ángel Cuevas, José González Cabañas, Aritz Arrate, Rubén Cuevas
摘要: 最近的欧洲通用数据保护条例(GDPR)和其他数据保护法规限制了某些类别的个人数据(健康,政治倾向,性取向,宗教信仰,种族血统等)的使用,因为隐私风险与这些信息相关。 GDPR将这些类别称为敏感个人数据。本文对197个国家的Facebook(FB)用户进行了量化研究,这些用户的广告偏好与其潜在的敏感个人数据相关。研究显示,Facebook中67%的用户具有潜在敏感兴趣,这相当于197个国家中22%的人口数量。此外,研究表明,GDPR执法在这方面的影响可以忽略不计,因为在GDPR颁布前的5个月和颁布后的9个月,属于欧盟的被敏感兴趣标记的FB用户几乎保持不变。本文还阐述了有关用户敏感兴趣的潜在风险。例如,本文量化研究了在同性恋可能会被判处死刑的国家中标有“同性恋”兴趣的FB用户。最后一个贡献是通过安装Web浏览器扩展,允许FB用户以简单的方式删除FB为其分配的潜在敏感兴趣。





复杂网络系统流

模型的影响力与介数


原文标题:
Influence and Betweenness in Flow Models of Complex Network Systems
地址:
http://arxiv.org/abs/1907.10667
作者:
Olexandr Polishchuk

摘要: 本文对复杂网络系统功能的表示方法进行研究。为了研究这些系统的行为,本文引入了流邻接矩阵(第二章)。本文通过分析复杂网络节点的影响强度、影响力、影响范围和影响直径,以确定节点在系统结构中的重要性(第三章)。本文通过引入网络得节点介数和边介数,并对它们的影响力、影响范围和影响直径进行分析,以确定它们在网络系统运行过程中的重要性(第四章)。这些指标定量地表示相应元素对系统流动性的影响,并确定网络在节点失效、连边失效或受到有针对性攻击时的预期损失。进一步,本文引入类似影响力和介数的概念来确定网络系统的独立子系统和整个系统的功能重要性。最后,本文给出了模型在实际复杂网络系统中的应用示例。



探索公共合作的

最佳制度激励机制


原文标题:
Exploring optimal institutional incentives for public cooperation
地址:
http://arxiv.org/abs/1907.10989
作者: 
Shengxian Wang, Xiaojie Chen, Attila Szolnoki

摘要: 亲社会(忠实与社会道德准则的)激励可以促进合作,但提供激励是昂贵的。人类社会中的机构可能更愿意采用能以合理成本促进合作的激励策略。然而,迄今为止,很少有研究提出最佳的制度激励措施,以最小化有益性公共合作的相关成本。本文结合最优控制理论,制定了两个最优控制方案,分别探讨机构奖惩的最优激励策略。利用Hamilton-Jacobi-Bellman方程对良好混合种群的方法,从理论上,本文分别得到了具有最小累积成本的最优正激励策略和最优负激励策略。此外,本文提供了数值实例来验证所获得的最优激励策略,与其他给定的激励策略相比,能否允许动态系统以最小累积成本达到预期目的。进一步,我们发现,与最优激励策略相比,最优惩罚策略是获得预期合作水平的更廉价的方式。



深度绘图:图

绘制的深度学习方法


原文标题:
DeepDrawing: A Deep Learning Approach to Graph Drawing
地址: 
http://arxiv.org/abs/1907.11040
作者: 
Yong Wang, Zhihua Jin, Qianwen Wang, Weiwei Cui, Tengfei Ma, Huamin Qu

摘要: 节点链接图广泛用于促进网络研究。然而,当使用图形绘制技术来可视化网络时,用户通常需要通过比较相应的绘图结果来迭代地调整不同算法的特定参数,以便实现期望的视觉效果。这种尝试和犯错的过程通常是非常繁琐且耗时的,尤其是对于非专家用户而言。受深度学习技术强大的数据建模和预测能力的启发,本文尝试将深度学习技术应用于图形绘制领域。具体来说,本文建议使用基于图结构的长短期记忆循环神经网络(LSTM)方法将网络结构直接映射到图中。给定一组布局示例作为训练数据集,通过训练所提出的基于图结构的LSTM模型,来捕获它们的布局特征。然后,训练的模型用于生成类似图形样式的新网络结构。本文以定性和定量的方式对两种特殊类型的布局(即网格布局和星形布局)和两种一般类型的布局(即ForceAtlas2和PivotMDS)进行了评估。结果为我们方法的有效性提供了支持。本文还对具有20到50个节点的小图进行了时间成本评估。我们将进一步报告我们学习到的经验,并讨论其局限性和今后的工作。



Python包索引

(PyPI)的实证分析


原文标题:
An Empirical Analysis of the Python Package Index (PyPI)
地址:
http://arxiv.org/abs/1907.11073
作者: 
Ethan Bommarito, Michael Bommarito

摘要: 在本研究中,我们提供了Python包存储库PyPI的综合实证摘要,包括元数据和源代码,包括178,592个包、1,745,744个版本、76,997个贡献者和156,816,750个import语句。我们提供包、版本、依赖关系、类别分类、许可证、import语句以及作者,维护者和组织的数量和趋势。作为最大的和历史最悠久的软件存储库之一,PyPI不仅提供了对当今Python生态系统的深入了解,还提供了更广泛的软件开发和审批的趋势,并且随着时间的推移,这些趋势将更加广泛。在PyPI中,本文发现存储库的增长在所有指标下都很稳健,在过去15年中,活跃包的复合年增长率为18.3%,新作者的复合年增长率为15.5%,新import语句的复合年增长率为27%。与许多类似的社交系统一样,本文发现了许多高度右偏的分布,包括每个包的版本分布,每个作者的包和版本的分布,每个包的import语句的分布以及每个包和版本的大小。但是,本文还发现大多数软件包是由个人提供的,而不是由多人或组织提供的。本文的数据,方法和计算为PyPI的公共讨论提供了出发点,并为未来Python软件生态系统的研究奠定了基础。



随机聚类网络中渗流簇的结构


原文标题:
Structure of percolating clusters in random clustered networks
地址:
http://arxiv.org/abs/1907.11130
作者:
Takehisa Hasegawa, Shogo Mizutaka

摘要: 本文研究了在随机聚类网络(RCN)模型上由网站渗透形成的渗透簇(PC)的结构。通过使用生成函数,我们制定了PC的聚类系数和同配系数。分析和数值计算表明,高度集群网络中的PC即使在渗透阈值处也是聚集的。PC的同配性取决于RCN的详细信息。当每个节点的边数和三角形的数服从泊松分布时,在渗透阈值处的PC是异配的,但当RCN中的节点具有相同数量的边和三角形时,在渗透阈值处的PC是同配的。尽管重整化方案揭示了分形PC天然异配的性质,这个结果似乎与分形网络的异配性相矛盾。



二元预测与实际收益的统计差异


原文标题:
On the Statistical Differences between Binary Forecasts and Real World Payoffs
地址: http://arxiv.org/abs/1907.11162
作者: Nassim Nicholas Taleb

摘要: 二元(或概率)预测能力与整体表现有什么关系?本文映射(单变量)二元预测,投注和“信念”(表示为特定“事件”将发生/将不会发生)以及现实世界连续收益(数字利益或事件的伤害)之间的差异,并显示其在决策科学文献中的混淆和错误描述的影响。本文还研究了薄和厚尾的差异。其影响包括:A-许多心理学研究结果的虚假性,特别是那些记录人类高估尾部概率和罕见事件的结果,或者他们对市场崩溃,生态灾难等的恐惧过度反应等。许多被感知到的“偏见”只是心理学家的错误描述。在促进预测市场方面,也存在对Hayekian观点的滥用。我们使用“伪高估”的度量来量化这种错误描述。B-在二元空间中,一个“良好预测者”并不一定具有良好的实际性能,反之亦然,尤其是在非线性情况下。当服从某些分布时,二元预测结果可能是失败的。更多的不确定性或复杂性,以及现实的概率分布使恶化了预测结果。C-机器学习:一些非线性收益函数,虽然不适用于口头表达和“预测“,但可以很好地被机器学习捕获。D- 厚尾性:当服从幂律分布时,差异加剧。



社交数据流的实时事件检测


原文标题: 
Real-time Event Detection on Social Data Streams
地址:
http://arxiv.org/abs/1907.11229
作者:
Mateusz Fedoryszak, Brent Frederick, Vijay Rajaram, Changtao Zhong

摘要: 社会网络正迅速成为讨论现实世界事件的主要媒介。在Twitter等社交平台上生成的信息可以产生丰富的数据流,以便立即了解正在发生的事件以及相关话题。为了解决事件检测问题,本文将事件建模为随时间变化的趋势实体簇的列表。本文描述了一个实时系统,用于发现模块化设计且规模与速度异常的事件:它将聚类方法应用于每分钟有数百万个实体的大型数据流,并生成动态更新的事件集。为了评估聚类方法,本文构建了一个评估数据集,该数据集源自完整的Twitter Firehose的快照,并提出了用于测量聚类质量的新指标。通过实验和系统分析,本文重点介绍了离线评估和在线表现的关键结果。最后,本文在Twitter上将一个重要事件的数据流进行可视化,以显示对事件演变进行建模的重要性,特别是那些从社会数据流中检测到的事件。
 



石头剪子布模型的

Lotka-Volterra和May-

Leonard实现中最弱物种的占优


原文标题:
Predominance of the weakest species in Lotka-Volterra and May-Leonard implementations of the rock-paper-scissors model
地址:
http://arxiv.org/abs/1907.11280
作者:
P.P. Avelino, B.F. de Oliveira, R.S. Trintin

摘要: 本文重新审视了Lotka-Volterra和May-Leonard实现空间随机石头剪子布模型中“最弱”物种占主导地位的问题,其中一个物种的捕食概率降低了0< P_w <1 。本文研究表明,尽管存在不同的种群动态和空间模式,但这两种实现方式得到的三个物种相对丰度(作为 P_w 的函数)的晚期值的定性结果具有相似性,只要模拟格足够大使得使共存具有优势——“最弱”的物种通常比其他物种(特别是比其捕食者)具有优势。然而,对于较小的模拟格,我们发现在随机初始条件下,模拟的初始阶段的相对大的振荡可能导致物种存活的概率与晶格尺寸、总模拟时间之间存在显著的依赖性。



权力网络:分析世界

领导者在社交媒体的互动


原文标题:
Networks of Power: Analyzing World Leaders Interactions on Social Media
地址:
http://arxiv.org/abs/1907.11283
作者: 
Evgeniia Iakhnis, Adam Badawy

摘要: 世界各国领导人越来越多地使用社交媒体平台作为政治交流的工具。然而,尽管针对政府在社交媒体上的账户的研究越来越多,但几乎没有人知道世界领导人之间的互动。本文利用2012年至2017年间193个国家领导人的一个新颖的、跨国家的Twitter通信数据集,构建了转发和提及网络,以探索领导者沟通的模式。我们使用社会网络分析得出结论,社交媒体上的领导者互动非常类似于他们在线下世界的互动。此外,与强调民主政体之间特殊联系的民主和平理论相一致,本文认为政治体制是推特上各国之间集群的主要预测因素。最后,本文研究了领导者模式的中心性,以确定哪些特征决定哪些领导者在网络中占据更多的中心位置。本文的研究结果为具有政府行为的人如何使用社交媒体提供了新见解,对人们在新形式外交中理解新技术具有重要意义。



时间网络的社区发现挑战


原文标题:
Challenges in Community Discovery on Temporal Networks
地址:
http://arxiv.org/abs/1907.11435
作者:
Remy Cazabet, Giulio Rossetti

摘要: 社区发现是网络科学中研究最多的问题之一。近年来,许多研究都侧重于在时间演化网络中发现社区,从而识别动态社区。有趣的是,动态社区不仅仅是静态社区的时间序列,而新的挑战在于动态社区的动态性本质。本文将讨论其中的一些挑战以及最近提出的解决这些挑战的建议。除其他专题外,我们将讨论逐步发展的网络中的社区事件问题,通过身份概念的变化,链路流中的动态社区,动态社区的平滑性以及新发现的不同类型的复杂性算法。


融入与分离:一种非线

性版本的共演化投票模型


原文标题: 
Fitting In and Breaking Up: A Nonlinear Version of Coevolving Voter Models
地址:
http://arxiv.org/abs/1907.11608
作者:
Yacoub H. Kureh, Mason A. Porter

摘要: 我们研究了一个非线性版本的协同演化投票模型,其中节点状态和网络结构都更新为耦合随机动力学过程。以前大多数关于共同决策的投票模型的研究都集中在线性更新规则上,这些规则都具有固定重连和采用概率。相比之下,在我们的非线性版本中,节点重新连接或采用的概率是它在其邻域内“适应”的程度的函数。为了探索这个想法,我们引入了一个参数  sigma ,它代表了一个共享其意见状态的更新节点的邻居部分。在一次更新过程中,需要更新的节点以概率  sigma ^ q (对于某些非线性参数 q )重新连线,并以互补概率 1-  sigma ^ q 采用新的状态。我们使用三种重连方案来研究这种机制:在更新节点删除不一致的边后,(1)通过在随机过程中选择新邻居来“随机重连”;(2)通过从共享其状态的节点的随机过程中选择新邻居来“重连修复”;(3)通过完全没有重连的的方式完成“重连到无”(类似于社交媒体上的“不友好”)。我们将非线性协同演化模型与现有的几种线性模型进行比较,在本文的模型中发现,初始网络拓扑可以在动力学中发挥更大的作用,而重连机制的选择起着较小的作用。本文的模型有一个特别有趣的特征,在某些条件下,如果少数节点将自己视为大多数节点,那么最初由少数节点持有的观点状态可以有效地扩散到网络中的几乎每个节点。根据这一观察结果,我们将本文的研究结果与社会网络中多数错觉的近期研究联系起来。



使用规则等价在基于信任

的推荐系统中利用弱关系


原文标题:
Exploiting weak ties in trust-based recommender systems using regular equivalence
地址: 
http://arxiv.org/abs/1907.11620
作者:
Tomislav Duricic, Emanuel Lacic, Dominik Kowald, Elisabeth Lex

摘要: 基于用户的协同过滤(CF)是创建推荐系统的最常用方法之一。然而,由于用户通常只对可用项目的一小部分进行评级,因此CF主要受到数据稀疏性和冷启动问题的困扰,一种解决方案是将附加信息结合到推荐过程中,例如由用户分配给他人的明确的信任关系,或者由用户之间的社交连接产生的隐式信任关系。这种关系通常形成非常稀疏的信任网络,它可以基于用户信任的人,为用户生成推荐信息。在我们的工作中,我们探讨了将规则等价应用于信任网络,以生成用于项目推荐的k-最近邻算法生成的相似矩阵。如果网络中的两个顶点的邻域本身是等价的,那么他们是规则等价的,通过使用计算规则等价的迭代方法,我们可以研究强弱关系对项目推荐的影响。我们在从Epinions抓取的数据集上评估了我们对的冷启动用户的方法,通过使用弱关系和强关系,我们可以提高基于信任的推荐者在推荐准确性方面的性能。



具有不断发展的系统

风险防护的网络和主体动态


原文标题: 
Network and Agent Dynamics with Evolving Protection against Systemic Risk
地址:
http://arxiv.org/abs/1907.11622
作者:
Chulwook Park

摘要: 保护过程的动态性一直是系统性风险分析的一个基本挑战。与研究人员所理解的相比,(在这种动力学中)所涉及的机制背后的概念、原理和方法技术更难掌握。本文展示了如何通过将一个简单的算法应用于网络化主体来构建各种各样的行为,可以想象,这可以提供一种简单的方法来摆脱复杂性。该模型从系统性风险扩散的概率开始。即使在非常随机的社会结构中,风险的传播也是由一组元素的任意网络属性来保证的。尽管存在强烈的系统性风险,但是当通过启发式进化的保护水平对保护进行大量投资时,无故障的可能性也可能被驱动。非常有趣的是,发现许多应用程序仍在寻求机制,通过这些机制,网络化个体基于演化漂移的适应性构建许多保护过程或机制。我们的实施仍然需要根据现实世界中的情况进行改进,但总的来说,这种方法对于研究人员和那些需要使用保护动态来防范人为环境中内在随机性的系统性风险的人来说非常有用。



节点警报 - 检测

快速演变图中的变化


原文标题: 
Node Alertness-Detecting changes in rapidly evolving graphs
地址:
http://arxiv.org/abs/1907.11623
作者:
Mirco A. Mannucci, Deborah Tylor

摘要: 在本文中,我们描述了一种新方法,用于检测快速发展的大规模的图形变化。所涉及的关键概念是本地警觉性:节点在每个时间段内监视其邻域内的变化。本文针对协整的股票提出了一个金融本地警报的应用程序。



采用Twitter评估美国人乳头瘤病

毒疫苗接种健康行为的决定因素


原文标题:
Mining Twitter to Assess the Determinants of Health Behavior towards Human Papillomavirus Vaccination in the United States
地址:
http://arxiv.org/abs/1907.11624
作者: 
Hansi Zhang, Christopher Wheldon, Adam G. Dunn, Cui Tao, Jinhai Huo, Rui Zhang, Mattia Prosperi, Yi Guo, Jiang Bian

摘要: 目的:通过综合行为模型(IBM),测试使用Twitter数据评估消费者对提供的人乳头瘤病毒(HPV)疫苗接种健康行为的决定因素的可行性。方法:本文使用了从2014年到2018年的三个Twitter数据集。本文对推文进行了预处理和地理编码,然后构建了一个基于规则的模型,将每条推文分为促销信息或消费者讨论。本文应用主题建模来发现主要主题,并探讨了从消费者讨论中学到的主题与在健康信息国家趋势调查(HINTS)中HPV相关问题的回答之间的关联。结果:我们收集了2,846,495条推文,并分析了335,681条推文的地理编码。通过主题建模,我们确定了122个高质量的主题。消费者讨论最多的话题是“宫颈癌筛查”;在促销推文中,最受欢迎的话题是提高人们对“HPV导致癌症”的认识。 122个主题中的87个与促销信息和消费者讨论之间存在关联。在IBM的指导下,我们检查了Twitter发现与从HINTS获得的结果之间的一致性。可以通过关键字将35个主题映射到HINTS问题,将112个主题映射到IBM结构,并且45个主题在地理分布方面与HINTS响应具有统计上显著的相关性。结论:不仅挖掘Twitter来评估消费者的健康行为可以获得与调查相当的结果,而且还可以通过理论驱动的方法获得更多的见解。尽管存在局限性,但这些令人鼓舞的结果促使我们在不断变化的健康传播领域中开发出利用社交媒体的创新方法。




通过强化学习学习

社会网络发现的策略


原文标题: 
Learning policies for Social network discovery with Reinforcement learning
地址:
http://arxiv.org/abs/1907.11625
作者:
Harshavardhan Kamarthi, Priyesh Vijayan, Bryan Wilder, Balaraman Ravindran, Milind Tambe

摘要: 在现实社会网络中找到有影响力的参与者时,一个严峻的挑战是缺乏对底层网络结构的了解。目前最先进的方法依赖于手工制作的采样算法;这些方法按照精心构造的顺序对节点及其相邻节点进行采样,并从这个发现的网络中选择意见领袖,以最大限度地扩大(未知)完整网络中的影响力。
在这项工作中,我们提出了一个用于网络发现的强化学习框架,它自动学习编码网络重要结构属性的有用节点和图形表示。在训练时,该方法识别网络的各部分,使得从该采样子图中选择的节点可以有效地影响整个网络中的节点。这种基于可转移网络结构的适应性策略的实现,归因于对由相应奖励方案驱动的相关节点和图形签名的编码框架的精细设计。本文对来自四个不同领域的真实社会网络进行实验,结果表明,我们的RL主体所学到的策略比目前最先进的方法提高了10%-36%。



复杂环境中的群集——集体

信息处理中的注意力折衷


原文标题: 
Flocking in complex environments — attention trade-offs in collective information processing
地址:
http://arxiv.org/abs/1907.11691
作者:
Parisa Rahmani, Fernando Peruani, Pawel Romanczuk

摘要: 生物和人类集体在各种任务中表现优于孤独个体的能力,在很大程度上取决于集体层面对社会和环境信息的有效处理。在这里,本文用许多可能分散注意力的线索来模拟复杂环境中集体行为。与直觉相反,通过强烈限制个体的认知能力,可以最大化在这种环境中的大规模协调能力。由于自组织的动力学,集体自我与干扰信息隔离开来。我们观察到协调和集体对环境线索的反应之间的一个基本规则。本文的研究结果为生物学中集体行为的可能演化规则提供了重要的见解,并提出了利用注意力瓶颈设计人工群体的新原则。
 

来源:网络科学研究速递

审校:赵子鸣

编辑:张爽


声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。


近期网络科学论文速递


图中心性是一个尺度问题 | 网络科学论文速递17篇
计算人类动力学 | 网络科学论文速递23篇
社交机器人造成的信息污染 | 网络科学论文速递18篇
时间序列背后的统计力学 | 网络科学论文速递17篇
通过移动数据了解在线新闻消费模式 等9篇
加入集智,一起复杂!






集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ ◆

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存